Telegram Group & Telegram Channel
Проблема Montezuma's Revenge

Большие проблемы у базовых RL-алгоритмов возникают тогда, когда награды за действия возникают редко, и нет шансов получить положительную награду просто случайным нажатием кнопок - а значит, вы не выучите абсолютно ничего с момента инициализации.

Это называют проблемой exploration - нам нужно "исследовать" среду и побывать в как можно большем наборе состояний среды, и уже в них пытаться нажимать случайные кнопки 😄

Для решения изобрели, пожалуй, десятки методов на основе intrinsic motivation - это когда вы конструируете искусственную награду за исследование новых состояний, сами её считаете и добавляете к настоящей награде. Обучение на такую награду позволяет мотивировать агента совершать действия, приводящие к новому состоянию среды.

В 2018 году был предложен абсурдно простой и при этом эффективный метод, который закрепился во многих последующих работах. Про такой эффект я уже говорил.

Завтра я про него расскажу, не переключайтесь!

@knowledge_accumulator



tg-me.com/knowledge_accumulator/20
Create:
Last Update:

Проблема Montezuma's Revenge

Большие проблемы у базовых RL-алгоритмов возникают тогда, когда награды за действия возникают редко, и нет шансов получить положительную награду просто случайным нажатием кнопок - а значит, вы не выучите абсолютно ничего с момента инициализации.

Это называют проблемой exploration - нам нужно "исследовать" среду и побывать в как можно большем наборе состояний среды, и уже в них пытаться нажимать случайные кнопки 😄

Для решения изобрели, пожалуй, десятки методов на основе intrinsic motivation - это когда вы конструируете искусственную награду за исследование новых состояний, сами её считаете и добавляете к настоящей награде. Обучение на такую награду позволяет мотивировать агента совершать действия, приводящие к новому состоянию среды.

В 2018 году был предложен абсурдно простой и при этом эффективный метод, который закрепился во многих последующих работах. Про такой эффект я уже говорил.

Завтра я про него расскажу, не переключайтесь!

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tg-me.com/knowledge_accumulator/20

View MORE
Open in Telegram


Knowledge Accumulator Telegram | DID YOU KNOW?

Date: |

That growth environment will include rising inflation and interest rates. Those upward shifts naturally accompany healthy growth periods as the demand for resources, products and services rise. Importantly, the Federal Reserve has laid out the rationale for not interfering with that natural growth transition.It's not exactly a fad, but there is a widespread willingness to pay up for a growth story. Classic fundamental analysis takes a back seat. Even negative earnings are ignored. In fact, positive earnings seem to be a limiting measure, producing the question, "Is that all you've got?" The preference is a vision of untold riches when the exciting story plays out as expected.

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Knowledge Accumulator from cn


Telegram Knowledge Accumulator
FROM USA